联合学习(FL)提供了一个有效的范式,可以共同培训分布式用户的数据的全球模型。由于本地培训数据来自可能不值得信赖的不同用户,因此一些研究表明,FL容易受到中毒攻击的影响。同时,为了保护本地用户的隐私,FL始终以差异性私人方式(DPFL)进行培训。因此,在本文中,我们问:我们是否可以利用DPFL的先天隐私权来提供对中毒攻击的认证鲁棒性?我们可以进一步改善FL的隐私以改善这种认证吗?我们首先研究了FL的用户级和实例级别的隐私,并提出了新的机制以获得改进的实例级隐私。然后,我们提供两个鲁棒性认证标准:两级DPFL的认证预测和认证攻击成本。从理论上讲,我们证明了DPFL在有限数量的对抗用户或实例下的认证鲁棒性。从经验上讲,我们进行了广泛的实验,以在对不同数据集的一系列攻击下验证我们的理论。我们表明,具有更严格的隐私保证的DPFL总是在认证攻击成本方面提供更强的鲁棒性认证,但是在隐私保护和公用事业损失之间的适当平衡下,获得了最佳认证预测。
translated by 谷歌翻译
机器学习的最新进展使其在不同领域的广泛应用程序,最令人兴奋的应用程序之一是自动驾驶汽车(AV),这鼓励了从感知到预测到计划的许多ML算法的开发。但是,培训AV通常需要从不同驾驶环境(例如城市)以及不同类型的个人信息(例如工作时间和路线)收集的大量培训数据。这种收集的大数据被视为以数据为中心的AI时代的ML新油,通常包含大量对隐私敏感的信息,这些信息很难删除甚至审核。尽管现有的隐私保护方法已经取得了某些理论和经验成功,但将它们应用于自动驾驶汽车等现实世界应用时仍存在差距。例如,当培训AVS时,不仅可以单独识别的信息揭示对隐私敏感的信息,还可以揭示人口级别的信息,例如城市内的道路建设以及AVS的专有商业秘密。因此,重新审视AV中隐私风险和相应保护方法的前沿以弥合这一差距至关重要。遵循这一目标,在这项工作中,我们为AVS中的隐私风险和保护方法提供了新的分类法,并将AV中的隐私分为三个层面:个人,人口和专有。我们明确列出了保护每个级别的隐私级别,总结这些挑战的现有解决方案,讨论课程和结论,并为研究人员和从业者提供潜在的未来方向和机会。我们认为,这项工作将有助于塑造AV中的隐私研究,并指导隐私保护技术设计。
translated by 谷歌翻译
计算机辅助的微创手术在使现代经营剧院受益方面具有巨大的潜力。从内窥镜流传输的视频数据提供了丰富的信息,以支持下一代智能手术系统的上下文意识。为了在手术过程中获得准确的感知和自动操纵,基于学习的技术是一种有希望的方法,近年来可以实现先进的图像分析和场景理解。但是,学习此类模型高度依赖于大规模,高质量和多任务标签的数据。目前,这是该主题的瓶颈,因为可用的公共数据集在CAI领域仍然非常有限。在本文中,我们介绍并发布了第一个具有多个基于图像的感知任务的集成数据集(称为Autolaparo),以促进子宫切除术手术中的基于学习的自动化。我们的Autolaparo数据集是根据整个子宫切除术程序的全长视频开发的。具体而言,数据集中制定了三个不同但高度相关的任务,包括手术工作流识别,腹腔镜运动预测以及仪器和关键解剖学细分。此外,我们还提供了最先进模型的实验结果,作为参考基准,用于该数据集的进一步模型开发和评估。该数据集可从https://autolaparo.github.io获得。
translated by 谷歌翻译
通过使用预训练模型的转移学习已成为机器学习社区的增长趋势。因此,在线发布了许多预培训模型,以促进进一步的研究。但是,它引起了人们对这些预训练模型是否会泄露其培训数据的隐私敏感信息的广泛担忧。因此,在这项工作中,我们的目标是回答以下问题:“我们可以有效地从这些预训练的模型中恢复私人信息吗?检索这种敏感信息的足够条件是什么?”我们首先探索不同的统计信息,这些信息可以将私人培训分布与其他分布区分开。根据我们的观察,我们提出了一个新颖的私人数据重建框架Secretgen,以有效地恢复私人信息。与以前可以恢复私人数据的方法与目标恢复实例的真实预测相比,SecretGen不需要此类先验知识,从而使其更加实用。我们在各种情况下对不同数据集进行了广泛的实验,以将Secretgen与其他基线进行比较,并提供系统的基准,以更好地了解不同的辅助信息和优化操作的影响。我们表明,如果没有关于真实班级预测的先验知识,SecretGen能够与利用此类先验知识的私人数据相比恢复具有相似性能的私人数据。如果给出了先验知识,SecretGen将显着优于基线方法。我们还提出了几个定量指标,以进一步量化预培训模型的隐私脆弱性,这将有助于对对隐私敏感应用程序的模型选择。我们的代码可在以下网址提供:https://github.com/ai-secure/secretgen。
translated by 谷歌翻译
深度神经网络(DNNS)铰接对大型数据集的可用性的最新成功;但是,对此类数据集的培训经常为敏感培训信息构成隐私风险。在本文中,我们的目标是探讨生成模型和梯度稀疏性的力量,并提出了一种可扩展的隐私保留生成模型数据标准。与标准展示隐私保留框架相比,允许教师对一维预测进行投票,在高维梯度向量上投票在隐私保存方面具有挑战性。随着需要尺寸减少技术,我们需要在(1)之间的改进之间导航精致的权衡空间,并进行SGD收敛的放缓。为了解决这一点,我们利用通信高效学习,并通过将顶-K压缩与相应的噪声注入机构相结合,提出一种新的噪声压缩和聚集方法TopAGG。理论上,我们证明了DataLens框架保证了其生成数据的差异隐私,并提供了其收敛性的分析。为了展示DataLens的实际使用情况,我们对不同数据集进行广泛的实验,包括Mnist,Fashion-Mnist和高维Celeba,并且我们表明,DataLens显着优于其他基线DP生成模型。此外,我们改进了所提出的Topagg方法,该方法是DP SGD培训的主要构建块之一,并表明它能够在大多数情况下实现比最先进的DP SGD方法更高的效用案件。我们的代码在HTTPS://github.com/ai-secure/datalens公开提供。
translated by 谷歌翻译
机器学习的最新进展主要受益于大规模的可访问培训数据。但是,大规模的数据共享提出了极大的隐私问题。在这项工作中,我们提出了一种基于PAINE框架(G-PATE)的新型隐私保留数据生成模型,旨在训练可缩放的差异私有数据生成器,其保留高生成的数据实用程序。我们的方法利用生成的对抗性网来产生数据,与不同鉴别者之间的私人聚集相结合,以确保强烈的隐私保障。与现有方法相比,G-PATE显着提高了隐私预算的使用。特别是,我们用教师鉴别者的集合训练学生数据发生器,并提出一种新颖的私人梯度聚合机制,以确保对从教师鉴别者流到学生发电机的所有信息的差异隐私。另外,通过随机投影和梯度离散化,所提出的梯度聚合机制能够有效地处理高维梯度向量。从理论上讲,我们证明了G-PATE确保了数据发生器的差异隐私。经验上,我们通过广泛的实验证明了G-PAIN的优越性。我们展示了G-PATE是第一个能够在限量隐私预算下产生高数据实用程序的高维图像数据($ \ epsilon \ LE 1 $)。我们的代码可在https://github.com/ai-secure/gate上获得。
translated by 谷歌翻译
近年来,商业上可用和负担得起的四足动物机器人激增,其中许多平台在研究和行业中都被积极使用。随着腿部机器人的可用性的增长,对这些机器人能够执行有用技能的控制器的需求也是如此。但是,大多数用于控制器开发的基于学习的框架都集中在培训机器人特定的控制器上,该过程需要为每个新机器人重复。在这项工作中,我们引入了一个用于训练四足机器人的广义运动(Genloco)控制器的框架。我们的框架合成了可以部署在具有相似形态的各种四足动物的机器人上的通用运动控制器。我们提出了一种简单但有效的形态随机化方法,该方法在程序上生成了一组训练的模拟机器人。我们表明,通过对这套模拟机器人进行训练,我们的模型获得了更多的通用控制策略,这些策略可以直接转移到具有多种形态的新型模拟和真实世界机器人中,在训练过程中未观察到。
translated by 谷歌翻译
无监督的终身学习是指随着时间的流逝学习的能力,同时在没有监督的情况下记住以前的模式。以前的作品假设了有关传入数据(例如,了解类边界)的强大先验知识,这些数据是在复杂且不可预测的环境中无法获得的。在本文中,以现实世界情景的启发,我们通过类外的流媒体数据正式定义了在线无监督的终身学习问题,该数据是非IID和单次通道。由于缺乏标签和先验知识,该问题比现有的终身学习问题更具挑战性。为了解决这个问题,我们提出了自我监督的对比终身学习(比例),该学习提取并记住了知识。规模围绕三个主要组成部分进行设计:伪监督的对比损失,自我监督的遗忘损失以及统一子集选择的在线记忆更新。这三个组件旨在协作以最大程度地提高学习表现。我们的损失功能利用成对相似性,因此消除了对监督或先验知识的依赖。我们在IID和四个非IID数据流下进行了全面的规模实验。在所有设置上,缩放量优于最佳最新算法,在CIFAR-10,CIFAR-100和Subimagenet数据集上,提高了高达6.43%,5.23%和5.86%的KNN精度。
translated by 谷歌翻译
从视频中获得地面真相标签很具有挑战性,因为在像素流标签的手动注释非常昂贵且费力。此外,现有的方法试图将合成数据集的训练模型调整到真实的视频中,该视频不可避免地遭受了域差异并阻碍了现实世界应用程序的性能。为了解决这些问题,我们提出了RealFlow,这是一个基于期望最大化的框架,可以直接从任何未标记的现实视频中创建大规模的光流数据集。具体而言,我们首先估计一对视频帧之间的光流,然后根据预测流从该对中合成新图像。因此,新图像对及其相应的流可以被视为新的训练集。此外,我们设计了一种逼真的图像对渲染(RIPR)模块,该模块采用软磁性裂口和双向孔填充技术来减轻图像合成的伪像。在E-Step中,RIPR呈现新图像以创建大量培训数据。在M-Step中,我们利用生成的训练数据来训练光流网络,该数据可用于估计下一个E步骤中的光流。在迭代学习步骤中,流网络的能力逐渐提高,流量的准确性以及合成数据集的质量也是如此。实验结果表明,REALFLOW的表现优于先前的数据集生成方法。此外,基于生成的数据集,我们的方法与受监督和无监督的光流方法相比,在两个标准基准测试方面达到了最先进的性能。我们的代码和数据集可从https://github.com/megvii-research/realflow获得
translated by 谷歌翻译
本文研究基于单眼图像的类别级对象构成估计。姿势感知的生成模型的最新进展为解决这一具有挑战性的任务使用分析铺平了道路。这个想法是依次更新生成模型的一组潜在变量,例如,姿势,形状和外观,直到生成的图像最能与观察结果一致为止。但是,收敛和效率是该推理程序的两个挑战。在本文中,我们从视觉导航的角度更深入地研究了分析的推断,并研究了该特定任务的良好导航策略。我们通过在收敛,鲁棒性和效率方面进行彻底比较,评估三种不同的策略,包括梯度下降,增强学习和模仿学习。此外,我们表明一种简单的混合方法会导致有效而有效的解决方案。我们进一步将这些策略与最先进的方法进行了比较,并在利用现成的姿势感知生成模型的合成和现实数据集上展示了卓越的性能。
translated by 谷歌翻译